Python爬虫(一) 之Beautiful Soup
Updated:
Python爬虫(一) 之Beautiful Soup
今天想入门学python爬虫,同事推荐了一个不错的Python库——Beautiful Soup。嗯?你说什么?美味的汤?
官方文档的解释是:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。
因此它是一个使用方便,可以用于网络爬虫的Python库。
今天试着体验了一番,确实好用~
1. 安装Beautiful Soup
如果你的系统是Ubuntu或Debain, 可以通过以下命令安装
|
|
或者可以选择用pip安装
|
|
如果有内网墙需要用proxy的,可以用下面的命令
|
|
2. 创建 Beautiful Soup 对象
首先导入bs4库
|
|
我们可以本地创建一个html文件作为获取的BeautifulSoup内容,或直接爬取网站上的内容。
|
|
或者
|
|
然后,就可以把对象打印出来啦~
|
|
结果如下: